作者 | 周雅
来源 | 2024 Google I/O Connect China
又是一届谷歌开发者大会(2024 Google I/O Connect),从今年6月至8月历时两个月,这场“环球之旅”先后走过德国柏林、印度班加罗尔,最后压轴之站来到中国北京。 作为每年Google I/O大会之后的衍生篇,“Connect系列活动”如同“Connect(连接)”一词的内涵,更主张local+global(本地化+全球化)。彼时科技行者同时参与了5月份在美国山景城的Google I/O,感受颇深的是,谷歌一直在强调用Gemini将AI践行到底;只不过这次在中国的内容,谷歌传递了很多特色故事,这些故事有谷歌的AI如何点亮中国传统文化,如何创造种类繁多的AI应用,以及更重要的,如何赋能中国开发者的成功出海。这次北京活动的第一天,刚好是8月7日,中国节气里的立秋,是收获的季节,但是在现场,或许“春耕”才符合他们的真实写照。“中国开发者是全球舞台上不可或缺的先锋力量。”Google大中华区总裁陈俊廷的这句开场白,无疑是整场活动的最佳注解,“过去一年里,来自中国的25个开发团队,共有31款游戏和应用,在全球不同地区斩获了50个Google Play年度最佳奖项。”与这个成绩相呼应的,是陈俊廷接下来列举的一个个案例,讲述了中国公司如何利用AI、重塑商业模式、驱动业务升级、为全球用户带去惊喜。- 在数字营销领域。网易游戏在海外接触Google Cloud Vertex AI平台,提升了广告文案创作效率,工作时间从原来的1周缩减到几个小时,每月累计可以生成700多条定制化文案,定制化的营销服务“信手拈来”。
- 同样是数字营销领域。“当红炸子鸡”家居在线平台Homary,通过Google AI赋能海外广告投放,实现了投资回报率提升49%、转化价值提升50%,可谓是卖爆全球。
- 在消费电子领域。小米在海外提前布局AI,利用Google Cloud和Gemini,让海外用户感受“中国智造”的魅力。
当然,AI助推进步不仅限于尖端生产力,在传承中国文化与造福社会方面,同样拥有无限潜力。譬如: - AI赋能传统与现代的融合创新。广州博物馆与谷歌艺术与文化(Google Arts & Culture)合作,通过沉浸式线上展览,向全球用户呈现广州千年港口的璀璨和饮食文化的魅力,比如广彩、德化瓷、镇海楼等,涵盖了127件珍贵馆藏图片和10个丰富的文化故事。
- AI赋能可持续发展。在四川高原牧场,西南民族大学借助谷歌的AI开源技术,改善了当地牧民生活。一位参与该项目的西南民族大学同学分享道:“红原县平均海拔3600米,这里有一望无际的草场,牦牛有没有长肉是牧民尤其关心的问题,我们收集了大量的牦牛图像数据,利用TensorFlow训练牦牛的关键点检测,借助轻量化的TensorFlow Lite模型部署在APP上,现在牧民只需要拍摄牦牛的照片,就能估算出牦牛的体重,适时调整养殖策略。为了帮助农民更好的进行放牧规划,我们利用谷歌的AI开源技术ARCore,在APP上设计了放牧规划模块、草畜平衡模块,帮助牧民进入自家牧场了解情况,推动牧场的可持续发展。”
- AI赋能社会公益。在中国26所偏远地区的小学课堂上,谷歌公益携手欣欣教育基金会,通过“编译梦想”项目,对900多名学生进行AI入门和基础教育,为孩子们打开AI世界的大门;在“善创未来”黑客马拉松中,40多名开发者以公益实践为主题,带来了兼具人文关怀、实用性和前瞻性的技术解决方案,比如此次会议介绍的两个AI技术开源项目:“手语村”与“智引线”,为听障和视障人士提供更多学习和生活的便利。
在谷歌看来,AI正在改变「开发」的格局,从激发应用创意,到重塑构建方法,而谷歌始终致力于通过AI赋能的产品开发工具和平台,帮助出海开发者大胆创新、高效创造、触达全球。那么对于这群可爱的开发者们而言,有哪些AI赋能的产品开发工具和平台?答案,就要从Gemini开始说起。如果说,曾经你还搞不清楚谷歌千千万万产品的名字,那么以后不必担心,因为当谈及谷歌的AI时,它们只会指向同一个名字——Gemini。 Gemini,是谷歌现在最核心的基础模型,同时被广泛认为是这家公司在AI时代的野心,此前谷歌CEO桑达尔·皮查伊(Sundar Pichai)在2024 Google I/O更是直言“谷歌正式迈向Gemini时代”。 从谷歌的表述来看,Gemini的独特之处在于“它不是单独在文本语料库上训练的,而是一开始就被设计为「多模态模型」”,所以它可同时处理多种类型的数据,文本、图像、音视频、代码等。迄今,Gemini一共发布了两代,Gemini 1.0(发布于2023年12月)和Gemini 1.5(发布于2024年2月),而为了匹配不同场景下的开发需求,它目前一共有Ultra、Pro、Flash、Nano四个版本。其中:- Gemini Ultra是谷歌规模最大、功能最强的模型,适用于“高度复杂的任务”。据说它是第一个在 57 门学科的大规模多任务语言理解(MMLU)测试中优于人类专家的语言模型,得分90%,这些学科包括数学、物理、历史、法律、医学等等。
- Gemini Pro适用于“各种广泛的任务”。目前,Gemini 1.5 Pro版本做了显著改进,不仅支持200万token的上下文窗口,还提升了在编写代码、逻辑推理和规划、多轮对话、理解音频和图像方面的能力,所以它适合“需要最高质量响应的复杂任务”,它回答的质量也高。
- Gemini Nano是最高效的模型,适合处理“端侧任务”(比如安卓手机),它可直接在移动设备上运行,提供低延迟响应和数据隐私保护。
- Gemini Flash是谷歌迄今速度最快、最经济的模型,专门针对大规模、高频率的运算任务进行了优化,适合处理“高容量任务”。有意思的是,1.5 Flash是通过1.5 Pro 的训练过程进行“提取”得到的,也就是说,将大模型中的核心知识和技能转移到这个较小但更高效的模型上。不过,尽管与1.5 Pro相比,1.5 Flash更轻量,但后者在处理大量信息时仍展现出强大的多模态推理能力,擅长摘要制作、聊天应用、提供图说和视频字幕、以及从长篇文件和表格中提取数据等任务。
总之,谷歌将逐渐把Gemini纳入旗下所有产品里,包括搜索、地图、照片、Workspace、安卓等。Gemini也会被集成到谷歌的众多开发工具中,包括Android Studio、Chrome DevTools、Project IDX、Colab、VS Code、IntelliJ和Firebase,可以帮助开发者编写、调试和测试代码,还可以生成文档、理解整个代码库等,化身“开发助手”。在谷歌的设想下,有了Gemini全家桶,开发者可以专注于构建AI功能,而谷歌专注于打磨这一王牌选手。但是,这还不够。
Google Developer X和开发者关系副总裁兼总经理Jeanine BanksGoogle Developer X和开发者关系副总裁兼总经理Jeanine Banks现场指出,为了满足开发者对灵活性和掌控力的需求,根据具体应用场景对AI进行微调、增强和接地气,谷歌自己卷自己,推出与Gemini“一脉相承”的开源大模型——Gemma,采用与Gemini相同的研究和技术。Gemma发布于今年2月,分为2B(20亿参数)和7B(70亿参数)两种尺寸版本,2B版本甚至可直接在笔记本电脑上运行;今年6月,谷歌又推出了更强大、更高效、更安全的Gemma 2,拥有90亿(9B)和270亿(27B)两种参数大小。谷歌这次也像往年一样,分享了全套应用开发工具和服务的更新,覆盖AI、Web、移动端、云这4个开发平台,为AI时代的开发者提供沃土。比如谷歌的开源UI工具包——Flutter,它可以在移动端、Web端、桌面端触及用户,其全部使用单一共享代码库。而在会上,谷歌宣布更新了Flutter 3.24和Dart 3.5版本,其中包括新的Flutter GPU API 的早期预览、Web上元素嵌入的增强、以及针对 iOS 生态系统构建的几项更新,包括对Swift Package Manager的早期支持,以及对Cupertino widget 的功能更新。传统上,跨平台框架在视觉效果上需要妥协,因为它们依赖于底层平台提供的高级抽象。而Flutter采用了不同的方法,拥有自己的渲染层,可以在每个设备上,提供硬件加速的图形和流畅的性能。谷歌在Impeller和着色器方面取得了实质性进展,为图形处理带来了激动人心的新可能 ——比如3D。其中最大的亮点是Flutter GPU API的早期预览,这是一个强大的底层图形API,它直接集成到Flutter SDK中,开发者可以通过该API,自定义光栅管线并直接向GPU提交绘制调用,使得创建专门的渲染器成为可能,如2D Canvas替代品、3D场景图、甚至粒子系统,以创建视觉上令人惊叹、高性能和身临其境的体验,而无需通常需要的引擎级别的开销。
在flutter_scene中渲染的科幻太空头盔的3D动画
现场联动环节,小米展示了利用Flutter,为小米SU7开发车载配套应用,包括远程车辆控制、接收车辆状态的实时更新、在后排悬挂Pad安装另外一块拓展屏App等。“上手Flutter非常容易,并且开发进展迅速,我们预估比使用原生框架的效率高60%。”小米汽车智能座舱手机APP客户端高级研发工程师陈作斌在宣传片里分享道。除了上述更新,谷歌还揭秘了开源项目Project Oscar。它是一个 AI代理(AI Agent)的参考实现,可协助维护开源项目。它以Go编程语言项目为入手点,将来能为各种不同的开源项目带来助力,帮助开发者全心投入编程工作。
诚然,几乎所有开发者活动,其实都有一个共性:尽可能激励开发者的创作灵感,谷歌的这次活动也不例外。所以,如果我们把视角从主题演讲的发布,挪到范围更大的其他环节,就会发现有更多的开发者聚集在现场的工作坊、展区体验、各种交流的场合里。展区体验环节同样是围绕AI、Web、移动端、云这4个主题分布,然而当我实际体验时才得知,这些案例中的大部分,并非是已经商业化的成熟案例,而是作为一个单纯的demo,为启发开发者的创作灵感而准备的。 比如多次亮相于谷歌开发者大会的“大黄”——谷歌的一个实验性项目,目的是为了给开发者提供灵感,展示AI如何量身定制一款交互助手。大黄的技术基因很多,它囊括了PaLM2、MakerSuite、MediaPipe、Vertex AI等,有了这些技术的加持,大黄可以与人实时对话。不过与去年相比,今年的大黄不仅会“说话”,还能“看见”周围环境。开发者可以通过“大黄”,了解到如何用Gemma开发交互助手。再比如展区现场的“Golf with Gemini(高尔夫陪练)”体验,Gemini可以作为教练,从准度、是否违规、优雅度、杆前动作、姿势与力量、最终得分、总结等维度,对你每一次的挥杆,给出专业指导。现场采访中,工作人员介绍了它的工作流: - 视频捕捉和处理:摄像机抓取玩家的高尔夫球比赛场景,所拍摄的视频上传到Google Cloud Storage;同时,利用计算机视觉的目标检测技术,在视频中逐帧追踪高尔夫球的运动,并提取球的位置、与球洞的距离、击球次数等数据;
- 数据存储与分析:提取的数据被实时传输到BigQuery,大量的数据被高效存储和分析,分析结果随后可被可视化,以更加了解高尔夫进程。
- 基于生成式AI的实时趣味解说:Gemini 1.5 Pro将基于拍摄的视频和数据,生成实时趣味解说。
诸如此类的体验还有很多,谷歌一直在通过寓教于乐的方式,来挖掘开发潜能。甚至,为了培养中国开发者,谷歌从教育抓起——「谷歌数字人才培养计划」自2022年起与教育部合作,目前已为全国150多所高校的560多名教师开展线下培训,累计覆盖4万多名在校学生。为了更好服务于中国开发者走向海外,Google开发者中文网站还上线了Google AI页面,专门提供Google AI技术更新、实时的新闻动态、丰富的学习资源;同时,谷歌通过“出海创业加速器(GFSA,Google for Startups Accelerator)”项目,助力中国创业者和开发者决胜全球,并且每年举行为期3个月的训练营,为入营企业提供三个月的免费创业支持。
一个中国工程师和芬兰老头,一起在「射频」领域干了件大事
对话Unity中国CEO张俊波:游戏之外,用户帮我们创造第二曲线